查看原文
其他

翻译技术|语料库检索工具Sketch Engine的介绍与使用

李伟泽 翻译圈
2024-09-09


该书以解决翻译实践问题为导向,以多元化搜索技术为脉络,基于数百个典型案例和应用场景进行详细讲解,内容涵盖桌面搜索、文档搜索、词典搜索、术语库搜索、语料库检索、网络搜索以及学术搜索等多个方面,旨在系统提升广大翻译从业者的搜索素养。全书紧跟国家人工智能发展战略,基于数据驱动和数据赋能的理念,致力于将最新搜索技术与翻译工作需求深度融合,是国内首部聚焦译者“搜商”的著作。该书既适用于外语、翻译专业的师生,也适用于广大语言服务从业者、翻译爱好者及相关研究人员。

本文将分享第五章第一节 单语语料库中,语料库检索工具Sketch Engine其系统功能以及其如何应用。希望能够对大家有所帮助。它们分别是:


(一)系统介绍

(二)案例演示

1)如何使用Word Sketch?

2)如何进行单词辨析?

3)如何查找同义词?

4)如何创建新的语料库?

5)如何提取语料库的关键词和术语?

目前该书可在各大购物平台购买,也可在微信阅读上免费阅读,欢迎大家一起阅读学习!


01

Sketch Engine

(一)系统介绍

语料库检索工具Sketch Engine能够基于大量的真实文本,根据语法成分自动提取词语的搭配规律,识别罕见或新兴的用法。Sketch Engine支持单词概览、单词辨析、单词搭配、同义词查找、语料索引、建立语料库等丰富的核心功能,被应用于词典编撰、语言教育和翻译研究等多领域。另外,该工具也能基于网络资源或本地文档,自建特色语料库,提取单词表。首先,以默认选择BNC语料库为例,该工具的操作面板如图6-1所示。

 Linggle的基图6-1 Sketch Engine的操作面板础界面


(二)案例演示






1.如何使用Word Sketch?

(1)操作面板中选中"Word Sketch",在"Basic"选项页面上直接输入想要查找的单词,也可以通过"Advanced"界面进一步限制所搜内容的词性(Part of speech)、出现的最低频率(Minimum frequency)、文本的来源类型(Text types)等,如图6-2所示。

图6-2 Sketch Engine中"Word Sketch"的输入界面(高级功能)


(2)以在"Basic"下检索"cooperate"为例。检索后页面上出现该单词的概览,包括其常搭配的修饰词、宾语、主语等,如图6-3所示。

图6-3 Sketch Engine中"cooperate"的单词概览


(3)点击某一选项卡右上角第一个图标,可显示该部分搭配在上下文中的语境。点击某一搭配的右方选项,也可显示来源语料,如图6-4和图6-5所示。

图6-4 Sketch Engine中查看语境的图标

图6-5 在Sketch Engine中查看"cooperate"的上下文语料




2.如何进行单词辨析?


(1)操作面板中点击"Word Sketch Difference",输入两个需要辨析的单词,以"collaborate”和“cooperate"为例,检索面板如图6-6所示。

图6-6 Sketch Engine中"Word Sketch Difference"的检索界面


(2)检索后,如图6-7所示,界面以同义词、主语、谓语、修饰词等分类比较两者不同的搭配习惯。两个单词分别代表绿色和红色,颜色从中间由浅到深两极分化,颜色越深则表示该搭配越常见。通过基于实际语料的单词辨析,用户可以反思自己的用法误区,让写作表达更地道。

图6-7 Sketch Engine中"cooperate"和"collaborate"的辨析结果




3.如何查找同义词?


操作面板中点击"Thesaurus",输入想要检索的单词或词根。以检索"acquire"为例,检索结果以词频降序排列,如图6-8和6-9所示。

图6-8 Sketch Engine中"Thesaurus"的图标


图6-9 在Sketch Engine中检索"acquire"同义词的结果




4.如何创建新的语料库?


Sketch Engine能基于网络资源或本地文档,自建新的语料库。该功能入口如图6-10所示。

图6-10 在Sketch Engine中点击"NEW CORPUS"新建语料库

(1)点击“NEW CORPUS”新建语料库后,设置新语料库的属性,包括命名、选择“Single Language Corpus”或“Multilingual Corpus”为单语或双语语料库,选择源语言,或对该语料库进行必要的说明。现以创建与Audiovisual Translation(视听翻译)有关的单语语料库为例,如图6-11所示。

图6-11 在Sketch Engine中设置新建语料库的属性


(2)添加文本。Sketch Engine支持从网络文本或本地文档中建立语料。若选择网络资源,它可以通过三种途径,直接获取并下载文本;若选择本地文档,用户可以上传多种文件格式,包括常见的.doc, .docx, .htm, .html, .pdf, .tgz, .tmx, .txt,.xml, .zip等等,也可直接粘贴文本。现以选择“Find texts on the web”从网络获取文本为例,选择界面如图6-12所示。

图6-12 在Sketch Engine中为新建语料库添加文本


(3)若基于网络资源获取文本,用户可以选择输入类型,包括“Web search”(网络主题搜索)、“URLs”(网页内容搜索)、"Website”(全网站搜索)。“Web search”指输入3至20个与主题相关的词或词组,该工具会随机组合3个词为单位,放到Bing引擎内搜索,将相关文本纳入语料库;“URLs”指输入一个或多个网址,网页内容纳入语料库;“Website”指输入某个网站(可带具体分支),其下所有内容(不多于2000个网页)纳入语料库。用户能展开选项卡,进一步限制搜索范围。现以选择“Web search”为例,如图6-13所示。

图6-13 在Sketch Engine中为新建语料库设置网络文本相关属性


(4)该工具会筛选出相关网页,供用户进一步选择文本来源,如图6-14所示。

图6-14 在Sketch Engine中为新建语料库筛选网络文本来源


(5)文本加载完成后,用户可以进一步点击左下“Extract Keywords& Terms”,提取新语料库中的关键词和术语,如图6-15所示。

图6-15 Sketch Engine中新建语料库的文本加载完成界面




5.如何提取语料库的关键词和术语?


(1)以第四点新建的语料库“Audiovisual Translation”为例,点击提取关键词和术语后,结果如图6-16所示。

图6-16 在Sketch Engine中提取语料库关键词和术语的结果

(2)点击右上角下载按钮,可以将提取结果导出为cvs, xls, xml格式,或将该界面导出为pdf格式,如图6-17所示。

图6-56 在Sketch Engine中导出语料库关键词和术语的提取结果


以上就是本文的全部内容,欢迎大家阅读原书,共同学习!

特别说明:本文仅供学习交流,如有不妥欢迎后台联系小编。

- END -



翻译圈公众号旨在为读者提供名师和专家对口笔译的真知灼见,CATTI考试和MTI入学考试信息,翻译等语言服务就业资讯,以及口笔译学习资源和知识,希望在翻译之路上,为大家助上一臂之力。欢迎大家积极留言,为我们提供建设性意见,我们共同进步!


原文作者:李伟泽

推文编辑:李舒蓉

指导老师:朱华

核:吴志雄、刘一葶

项目统筹:吴志雄

资讯推荐


胡开宝教授致辞


▶精品课程

精品课程|特别推出!GenAI时代口译技术工作坊

精品课程|从入门到进阶:语料库建设与统计分析实务

精品课程|GenAI时代的西部翻译技术实战研修班(一号通知)

1号通知 | 大语言模型与翻译教育实践创新特训营三亚开班

限时预售 | 2024“大语言模型”系列翻译技术全年班

活动预告 | GenAI时代的西部翻译技术实战研修班

▶资源宝库

翻译技术|在Trados中利用TM做预翻译

翻译技术|将左英文右中文的excel转换为上中文下英文的excel

翻译技术|The Free Dictionary-多语在线词典搜索引擎

翻译技术|字幕翻译配音恐失业,Ai翻译配音超逼真

资源宝库|经济学人等160多家外刊免费看!

资源宝库|哈利波特1~8季大放送

▶翻译百科

翻译百科|《中国大百科全书》中的“语言服务”

翻译百科|《中国大百科全书》中的“神经网络机器翻译”

翻译百科|《中国大百科全书》中的“翻译层次”

翻译百科|《中国大百科全书》中的“范化”

翻译百科|《中国大百科全书》中的“可比语料库”

▶代码分享

翻译技术|代码分享——wordnet自带词典功能

翻译技术|代码分享——多语料库词频分析表格

翻译技术|代码分享——使用 SpaCy 进行句法依存分析

翻译技术|代码分享——标准类符形符比

翻译技术|代码分享——清除符号

▶文献精读

文献精读|刘康龙等:翻译与非翻译董事长致辞的句法差异

文献精读|Vanmassenhove:机器翻译中语言丰富性缺失

▶译界动态

译界动态|2023年度国家社科基金重大项目立项名单公示

论坛预告 | 2023翻译技术与语言服务人才培养高端论坛

译界动态|华为翻译中心在WMT 2023通用、领域(生物医学)、文学翻译任务中斩获多个第一

译界动态|第十一届亚太翻译论坛将于2025年在香港举办

译届动态|公益沙龙之ChatGPT时代译者的搜商体系构建之道

  关注我们 了解更多

CATTI和MTI资讯

语言服务就业信息

翻译名师真知灼见

翻译学习精品课程


继续滑动看下一个
翻译圈
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存